A new development in NLP is the construction of hyperbolic word embeddings. As opposed to their Euclidean counterparts, hyperbolic embeddings are represented not by vectors, but by points in hyperbolic space. This makes the most common basic scheme for constructing document representations, namely the averaging of word vectors, meaningless in the hyperbolic setting. We reinterpret the vector mean as the centroid of the points represented by the vectors, and investigate various hyperbolic centroid schemes and their effectiveness at text classification.
translated by 谷歌翻译
视频框架插值(VFI)是一项基本视觉任务,旨在综合两个连续的原始视频图像之间的几个帧。大多数算法旨在通过仅使用密钥帧来完成VFI,这是一个错误的问题,因为密钥帧通常不会对场景中对象的轨迹产生任何准确的精度。另一方面,基于事件的摄像机在视频的关键帧之间提供了更精确的信息。一些最新的基于事件的最新方法通过利用事件数据来更好地解决此问题,以更好地进行光流估计来通过翘曲插值视频框架。尽管如此,这些方法严重遭受了重影效果。另一方面,仅使用框架作为输入的一些基于内核的VFI方法表明,在用变压器备份时,可变形的卷积可能是处理长期依赖关系的可靠方法。我们提出了基于事件的视频框架插值,并作为一种基于轻质核的方法(E-VFIA)。 E-VFIA通过可变形的卷积将事件信息与标准视频帧融合在一起,以生成高质量的插值框架。所提出的方法表示具有高时间分辨率的事件,并使用多头发项机制来更好地编码基于事件的信息,同时不太容易受到模糊和鬼影的影响;因此,产生更脆的框架。仿真结果表明,该提出的技术优于当前最新方法(基于框架和事件),其模型大小明显较小。
translated by 谷歌翻译
我们在在线环境中研究了非线性预测,并引入了混合模型,该模型通过端到端体系结构有效地减轻了对手工设计的功能的需求和传统非线性预测/回归方法的手动模型选择问题。特别是,我们使用递归结构从顺序信号中提取特征,同时保留状态信息,即历史记录和增强决策树以产生最终输出。该连接是以端到端方式的,我们使用随机梯度下降共同优化整个体系结构,我们还为此提供了向后的通过更新方程。特别是,我们采用了一个经常性的神经网络(LSTM)来从顺序数据中提取自适应特征,并提取梯度增强机械(Soft GBDT),以进行有效的监督回归。我们的框架是通用的,因此可以使用其他深度学习体系结构进行特征提取(例如RNN和GRU)和机器学习算法进行决策,只要它们是可区分的。我们证明了算法对合成数据的学习行为以及各种现实生活数据集对常规方法的显着性能改进。此外,我们公开分享提出的方法的源代码,以促进进一步的研究。
translated by 谷歌翻译
在距离度量学习网络的培训期间,典型损耗函数的最小值可以被认为是满足由训练数据施加的一组约束的“可行点”。为此,我们将距离度量学习问题重构为查找约束集的可行点,其中训练数据的嵌入向量满足所需的类内和帧间接近度。由约束集引起的可行性集被表示为仅针对训练数据的特定样本(来自每个类别的样本)强制执行接近约束的宽松可行集合。然后,通过在那些可行的组上执行交替的投影来大致解决可行点问题。这种方法引入了正则化术语,并导致最小化具有系统批量组结构的典型损失函数,其中这些批次被约束以包含来自每个类的相同样本,用于一定数量的迭代。此外,这些特定样品可以被认为是阶级代表,允许在批量构建期间有效地利用艰难的挖掘。所提出的技术应用于良好的损失,并在斯坦福在线产品,CAR196和CUB200-2011数据集进行了评估,用于图像检索和聚类。表现优于现有技术,所提出的方法一致地提高了综合损失函数的性能,没有额外的计算成本,并通过硬负面挖掘进一步提高性能。
translated by 谷歌翻译